Novelty as a drive of human exploration in complex stochastic environments|PNAS(2025)
Alireza Modirshanechi, Wei-Hsiang Lin, He A. Xu, Wulfram Gerstner
DOI: https://doi.org/10.1073/pnas.2502193122
なぜ人はやれば確実に報酬(reward)がもらえるタスクより、報酬に繋がるかわからない情報収集に時間をかけてしまうのか?
Naa_tsure.iconなぜやらなければいけない仕事よりTwittertwitter.iconを優先してしまうのか?
強化学習(Reinforcement Learning; RL)
内的報酬(intrinsic rewards)
現実ではゴールにたどり着くまでに複数ステップを要する
multistep taskを用いる
従来の内発的動機づけ型強化学習(intrinsically motivated RL)は新しいものを求める
noisy TV問題
砂嵐のテレビはある意味新しい刺激を与えるので内的報酬(intrinsic rewards)になり得る
しかし、人間にとってはこれはあまり面白みがない
局所的に報酬(reward)が存在する環境を用いる
外的報酬(extrinsic rewards)は1つのエピソードの最後のみ(お金)
内的報酬(intrinsic rewards)は新規性(novelty), サプライズ(surprise), 情報利得(information gain)の3つ
この3つの内的報酬を比べると、新規性(novelty)を取り入れたモデルが一番人間の参加者の行動をうまく説明できていた。